孟加拉语键入大多是使用英语键盘进行的,并且由于存在化合物和类似明显的字母,因此可能是错误的。拼写错误的单词的拼写校正需要了解单词键入模式以及用法一词的上下文。我们提出了一个专业的BERT模型,Bspell针对词校正句子级别。Bspell包含一个可训练的CNN子模型,名为Semanticnet以及专门的辅助损失。这使得Bspell在存在拼写错误的情况下专门研究高度易转的孟加拉词汇。我们进一步提出了将单词级别和字符水平掩蔽组合的混合预读方案。利用这种预审前的方案,BSPELL在现实生活中的孟加拉语拼写校正验证设置中实现了91.5%的准确性。对两个孟加拉语和一个印地语拼写校正数据集进行了详细比较,显示了拟议的Bspell优于现有咒语检查器的优势。
translated by 谷歌翻译
虽然为英语和中文等高资源语言(LM)的语言建模(LM)有大量的工作,但对于孟加拉和印地文等低资源语言仍然是未开发的。我们提出了一个名为COCNN的最终可训练记忆高效CNN架构,以处理孟加拉和印地语的高拐点,形态丰富,灵活的单词顺序等特定特征,以及孟加拉和印地语的语音拼写错误。特别是,我们在Word和句子级别介绍了两个学习的卷积子模型,这些子模型结束了最终培训。我们展示了最先进的(SOTA)变压器模型,包括佩尔雷达伯特不一定会给孟加拉和印地语产生最佳表现。 COCNN优于Preverting Bert,参数减少16倍,它可以在多个真实数据集上的SOTA LSTM模型实现更好的性能。这是第一次研究不同架构的有效性,从三个深度学习范式 - 卷积,经常性和变压器神经网络,用于建模两种广泛使用的语言,孟加拉和印地语。
translated by 谷歌翻译